1
從統計到語境:自然語言處理的演進
AI030Lesson 3
00:00

自然語言處理的演進代表了一種根本性的轉變,即從將語言視為離散、孤立的符號,轉向將其映射到連續的多維向量空間。我們已從簡單的 特徵基礎表示法 進展為深層語義映射。

TF-IDF(稀疏)維度數 = 詞彙量大小Word2Vec(分布式)國王王后蘋果維度數 = 潛在特徵

表達方式的轉變

  • 統計時代(稀疏): 早期的自然語言處理依賴於TF-IDF算法。雖然對檢索有效,但存在「稀疏性困境」。在TF-IDF系統中,「醫師」與「醫生」是正交向量——數學上,它們之間無任何關係。
  • 分布式革命(神經網絡語言模型與Word2Vec): 神經網絡語言模型引入了密集向量。Word2Vec(Skip-gram/CBOW)學習到,在相似語境中出現的詞應為空間上的鄰近詞。
  • 全局統計(GloVe): 全局向量透過分析整個語料庫中的全局共現情況來彌補差距,確保距離反映數學上的語義相似性。
深入洞察
從計算出現次數轉向預測語境,使模型能捕捉細微差異。這種「分布式表示」意味著單一詞語的含義分散在數百個向量維度中,每一維可能代表一個潛在的語義特徵,例如性別、王權或醫學背景。